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1. Wstęp 


Obszarem zainteresowania teorii gier są problemy związane z decyzjami w układach z wieloma uczestnikami 
(agentami, graczami), z których każdy ma pewne swoje preferencje, określające jego sposób działania (w ramach 
ustalonych reguł), od których zależy jego wypłata. Zakłada się, że wszyscy uczestnicy zachowują się racjonalnie, co w 
języku teorii gier oznacza, że każdy z uczestników stara się zmaksymalizować swoją własną wypłatę, niezależnie od 
tego, co robią inni uczestnicy. Zatem każdy gracz podejmuje decyzje o ruchach, które są zgodne z zasadami gry i które 
maksymalizują jego wypłatę. Niektórzy teoretycy uważają, że teoria gier dostarcza podstaw wyjaśniających myślenie 
strategiczne, podczas gdy inni interpretują teorię gier jedynie jako narzędzie, które może doradzać graczom co robić w 
grze, aby zmaksymalizować wypłatę wedle określonych preferencji. Różnica ta jest natury filozoficznej i jako taka nie 
będzie nas interesować. Bardziej istotny jest fakt, że teoria gier znalazła szerokie zastosowania w ekonomii, biologii 
ewolucyjnej, socjologii, naukach politycznych, oraz (ostatnio) w informatyce. We wszystkich tych dziedzinach teoria ta 
służy w roli narzędzia do rozpatrywania modeli podejmowania optymalnych decyzji (strategii) w sytuacjach z udziałem 
co najmniej dwóch graczy. Często w takich sytuacjach poszczególni gracze nie są pewni działania jakie podejmą 
pozostali gracze. Teoria gier działa również w sytuacjach w których występuje tylko jeden gracz, który działa w 
warunkach niepewności (lub posiadania niepełnych danych). W związku z tym można ją ogólnie scharakteryzować 
jako teorię podejmowania optymalnych decyzji w warunkach nieokreśloności. 


2. Czym jest gra? — Przykłady gier 
W skrócie, gra składa się ze: 


1. Zbioru graczy D = 4 Pi ), gdzie każde Pi (dla i = 1, 2, 3...) oznacza pewnego gracza, 

2. Zbioru reguł gry R, 

3. Zbioru możliwych strategii Si dla każdego gracza Pi, 

4. Zbioru możliwych wyników W, 

5. Wypłat ui(w) dla każdego gracza Pi i dla każdego wyniku w ze zbioru W. ui(w) nazywa się często funkcją 
użyteczności lub funkcją wypłaty. 


Przykład 1 


Gra w wybieranie strony monety: Dwóch graczy wybiera niezależnie orła lub reszkę i informuje o swoim wyborze 
sędziego. Jeśli obydwaj wybiorą taką samą stronę monety, to wygrywa gracz pierwszy, w innym przypadku wygrywa 
gracz drugi. Tak określona gra ma następujące składniki: 


1. Zbiór graczy: W tej grze uczestniczy dwóch graczy, którzy razem tworzą zbiór {P1, P2}. 


2. Zbiór zasad: Istnieją pewne zasady, które gracze muszą respektować w trakcie gry. Każdy z graczy może 
bezpiecznie założyć, że inni stosują się do tych reguł. W grze w wybieranie strony monety każdy gracz może 
wybrać orła lub reszkę. Musi on zachowywać się niezależnie od wyboru innego gracza oraz dokonać tylko 
jednego wyboru. Gracz P1 wygrywa jeśli wybory obydwu graczy są takie same, a jeśli nie są, to wygrywa 
gracz P2. Te zasady stanowią zbiór R reguł gry. 


3. Zbiór strategii: Zbiór strategii to zbiór możliwych ruchów (działań) jakie gracz może zastosować w trakcie 
gry. W przypadku tej gry zbiory strategii Si obydwu graczy Pi są określone jako S1 = S2 = +Orzeł, Reszka). 
Oznacza to, że każdy z nich może wybrać albo orła, albo reszkę. Orzeł lub reszka staje się wówczas strategią 
tego gracza. 


4. Zbiór wyników: W zadanej sytuacji zbiór wyników dla obydwu graczy jest taki sam i wynosi W = £Wygrana, 
Przegrana). Możliwe wyniki są wartościami funkcji określonych na zbiorze strategii. W naszym przypadku 
wszystkie możliwe strategie obydwu graczy wzięte razem to SI x S2 = +4(Orzeł, Orzeł), (Orzeł, Reszka), 
(Reszka, Orzeł), (Reszka, Reszka);, gdzie pierwszy składnik każdej pary oznacza strategię wybraną przez 
pierwszego gracza, zaś drugi składnik pary — strategię obraną przez gracza drugiego. Taki zbiór jest czasem 
nazywany profilem (możliwych układów) strategii. Widać, że pierwszy i ostatni przypadek w powyższym 
profilu strategii jest sytuacją Wygranej dla pierwszego gracza (i Przegranej dla drugiego), zaś dwa środkowa 
są sytuacjami Wygranej dla drugiego (i Przegranej dla pierwszego). 


5. Wypłata: Wypłatami nazywamy wielkość korzyści jaką gracz wyniesie, jeśli otrzyma określony wynik w 


grze. W ogólności wypłaty mogą być różne dla różnych graczy. Przykładowo, określmy następujące wypłaty 
w naszym przykładzie gry w wybieranie strony monety: 


ul(Wygrana) = 100, 
ul(Przegrana) = 0, 


u2ż(Wygrana) = 100, 
u2(Przegrana) = 0. 


Zgodnie z założeniem o racjonalności, obywaj gracze będą chcieli zmaksymalizować ich wypłaty, zatem 
obydwaj będą chcieli wygrać. Rozważmy teraz nieco inny przypadek. Zredefiniujemy wypłaty następująco: 
Niech pierwszy gracz będzie nastawiony nadal na absolutne zwycięstwo: 


ul(Wygrana) = 100, 
ul(Przegrana) = 0, 


podczas gdy gracz P2 jest przede wszystkim zainteresowany ucieszeniem gracza P1 (który jest młodszym 
braciszkiem gracza P2). Zatem dla gracza P2: 


u2(Wygrana) = 10, 
u2(Przegrana) = 100. 


W tej sytuacji tylko gracz P1 będzie zdecydowanie dążył do wygranej, gdy tymczasem gracz P2 będzie 
próbował przegrać. Warto zwrócić uwagę, że każdy gracz próbujezmaksymalizować swoją wypłatę (wygraną), 
więc dąży do osiągania takich wyników, które dadzą mu maksymalną wypłatę. 


Ważną rolę w teorii gier pełni pojęcie gry o sumie zerowej. Jest to taka gra, w której suma wypłat wszystkich 
uczestników dla każdego wyniku w grze wynosi zero. Powyższa gra byłaby grą o sumie zerowej jeśli określilibyśmy: 


ul(Wygrana) = 1, 
ul(Przegrana) = -1, 


u2ż(Wygrana) = 1, 
u2(Przegrana) = -1. 


Gry o sumie zerowej są zawsze grami opisującymi pewien konflikt (rywalizację czy też konkurencję): każda strategia 
zwiększająca zysk (wypłatę) jednego gracza zmniejsza wypłatę pozostałych graczy. Przypomina to podział tortu (lub 
ogólnie — zagadnienie podziału skończonych i wymiernych dóbr): rozmiar tortu nie ulega zmianie, niezależnie od tego 
jak go dzielić. Porównując pierwszą wersję wypłat w powyższym przykładzie z ostatnią, można łatwo zobaczyć 
podobieństwo. W ogólności możemy mówić o sytuacjach konfliktowych jako grach o stałej sumie. Jednakże ponieważ 
od nas (jako stosujących aparat teorii gier do rozważania poszczególnych problemów) zależy, przynajmniej do 
pewnego stopnia, jakie wartości wypłat przypiszemy poszczególnym wynikom, to możemy niejednokrotnie określoną 
grę o stałej sumie przepisać do postaci gry o sumie zerowej. Gry bez współpracy o sumie zerowej z udziałem dwóch 
graczy nazywane są grami antagonistycznymi. 


Przykład 2 


Innym przykładem gry o sumie zerowej są szachy. W grze tej uczestniczy dwóch graczy, z których jeden gra Białymi 
figurami, a drugi Czarnymi. Ta gra ma trzy możliwe wyniki W = {Czarne wygrywają, Białe wygrywają, Remis). 
Zdefiniujmy teraz wypłaty następująco: 


Czarne Białe Remis 
wygrywają  |wygrywają 
UCzarne 1 0 y 
UBiałe 0 1 y 


Dla każdego z wyników, suma wypłat wszystkich graczy jest stała (i wynosi 1), więc jest to gra o stałej sumie. Jeśli 
Białe zwiększyłyby swoją wypłatę otrzymywaną w wyniku zwycięstwa, to Czarne straciłyby część wypłaty i vice 
versa. 


Przykład 3 


Przykładem gry która nie jest grą o stałej sumie jest słynny Dylemat Więźnia: Dwóch ludzi popełniło przestępstwo, lecz 
brak na to dowodów, zaś policja złapała ich i umieściła w dwóch osobnych celach. Ponieważ nie ma dowodów 
popełnienia przez nich przestępstwa, nie można im udowodnić winy. Dlatego policja stara się nakłonić ich do zeznań 
przeciwko sobie. Każdemu z więźniów dano dwie możliwości: przyznać się do popełnienia przestępstwa, albo 


zaprzeczyć. Jeśli więzień I się przyzna, lecz więzień II zaprzeczy, to wówczas więzień I będzie występował w roli 
świadka przeciwko drugiemu i nie zostanie ukarany więzieniem, natomiast wówczas drugi więzień dostanie pełny 
wyrok 10 lat więzienia (i vice versa). Jeśli obaj się przyznają, to obydwaj dostaną po 5 lat odsiadki, ponieważ wówczas 
policja będzie miała dowody przeciwko obydwu. Jeśli obydwaj zaprzeczą oskarżeniu, że popełnili przestępstwo, to nie 
będzie na to dowodów, więc dostaną tylko po roku więzienia, za brawurową ucieczkę samochodem przed policją. 


Sytuację tę można przedstawić przy pomocy następującej tabelki (macierzy): 


II Przyznać się Zaprzeczyć 
Przyznać się 5,5 0,10 
Zaprzeczyć 10,0 1,1 


Taka tabelka jest typowym sposobem przedstawiania gry, w której uczestniczy dwóch graczy posiadających skończoną 
liczbę strategii. Pierwsza liczba przed przecinkiem oznacza wypłatę (wyrok) dla gracza I, zaś druga liczba oznacza 
wypłatę dla gracza II. Każdy wiersz reprezentuje strategię gracza I, zaś każda kolumna określa pewną strategię gracza 
II. Zatem prawa dolna komórka oznacza, że jeśli gracz I zaprzeczy oraz gracz II zaprzeczy, to wyrok (wypłata) dla 
obydwu graczy wynosi 1 rok. 


Przeprowadźmy teraz analizę tej gry z perspektywy gracza I. Chce on zminimalizować wyrok, ale nie wie, czy gracz II 
zamierza przyznać się, czy też zaprzeczyć. W związku z tym gracz I rozważa dwie sytuacje: 


a) Jeśli gracz II się przyzna: W tej sytuacji przyznanie się przez gracza I daje 5 lat 
więzienia, podczas zaprzeczanie doprowadzi do 10 lat więzienia. Zatem lepiej się 
przyznać. 


b) Jeśli gracz II zaprzeczy: W tej sytuacji przyznanie się przez gracza I daje 0 lat więzienia 
(wolność za bycie świadkiem oskarżenia), podczas gdy zaprzeczanie spowoduje 1 rok 
więzienia. Zatem w tej sytuacji również lepiej się przyznać. 


Ponieważ gracz I jest graczem racjonalnym i chce zminimalizować swoją wypłatę, przyzna się do winy. Co ciekawe, 
ponieważ gracz II jest również graczem racjonalnym, zaś sytuacja jest symetryczna (co jest wyrażone w symetrii 
powyższej tabelki), to również on się przyzna. Paradoks tej sytuacji polega na tym, że jeśli obydwaj postąpią zgodnie ze 
swoją racjonalnością, to dostaną po pięć lat, zaś gdyby obydwaj zaprzeczyli, to dostaliby tylko po roku. Jednak żaden z 
nich nie wie, jak postąpi drugi, dlatego też wybór każdego z nich był najbardziej racjonalny. Dylemat więźnia jest 
dobrym przykładem gry bez współpracy — tylko w sytuacji współpracy pomiędzy obydwoma graczami w tej grze mogą 
oni osiągnąć całkowite minimum wyroku. Natomiast bez współpracy nie mogą oni rozważać wspólnej strategii, a 
jedynie indywidualne, w ramach których wybierają najlepszą dla siebie opcję, w warunkach braku wiedzy o wyborze 
strategii dokonanym przez drugiego gracza. 


Korzystając teraz z teorii prawdopodobieństwa, możemy policzyć ile wynosi oczekiwana liczba lat odsiadki w 
więzieniu, w zależności od prawdopodobieństwa przypisywanego przez jednego gracza poszczególnym decyzjom które 
może dokonać drugi gracz. Jeśli gracz I zakłada, że są równe szanse na przyznanie się lub zaprzeczenie przez gracza II 
oraz przez samego siebie, to obydwu decyzjom każdego z nich przypisze prawdopodobieństwo 0.5. Wówczas może 
policzyć oczekiwaną liczbę lat swojej odsiadki jako: 


szansa, że I się przyzna * szansa, że II się przyzna * wypłata dla gracza I + szansa, że I się 
nie przyzna * szansa, że II się przyzna * wypłata dla gracza I + szansa, że I się przyzna * 
szansa, że II się nie przyzna * wypłata dla gracza I + szansa, że I się nie przyzna * szansa, 
że II się nie przyzna * wypłata dla gracza I, czyli: 


0.5 * 0.5*5+0.5 *0.5* 10+0.5*0.5* 1+0.5 * 0.5 * 0=0.5 * 0.5 * (5+10+1+0) = 4. 


Jeśli jednak gracz I zakłada, że jest 60% szans na to zaprzeczy i 40% na to, że się przyzna, 
to (przyjmując 50% szans obydwu możliwościom decyzji II gracza) oczekiwana liczba lat 
odsiadki I gracza wynosi: 


0.5 * 0.4 * 5+ 0.5 * 0.6 * 10+ 0.5 * 0.4 *0+ 0.5 * 0.6 * 1 = 4.3. 


Widać wyraźnie, że im bardziej gracz I chce zaprzeczyć, tym bardziej jego oczekiwany wyrok rośnie, i odwrotnie: jego 
wyrok maleje tym bardziej, im jest większa szansa, że się przyzna. 


Dylemat więźnia fascynuje ludzi zajmujących się teorią gier, ponieważ jest prostym przykładem sytuacji, w których 
dostępne strategie określić można jako „działanie na rzecz wspólnego dobra” oraz „działanie na własną korzyść”. 
Obejmuje to wiele sytuacji które są rozpatrywane w ekonomii. Przykładowo, zbudowanie mostu służy każdemu, lecz 
również każdy by wolał, żeby most zbudował kto inny. Innym przykładem jest sytuacja w której mamy dwie 


konkurujące firmy, zaś dostępnymi strategiami jest „dać wysoką cenę” oraz „dać niską cenę”. Oczywiście, dla każdej 
firmy jest najlepsze, jeśli obydwie dadzą wysokie ceny, lecz dla każdej z osobna jest lepsze dać cenę niższą niż 
konkurencja. W sytuacji gier, w których jedna strategia określonego gracza jest zdecydowanie lepsza od wszystkich 
innych możliwych jego strategii niezależnie od tego jakie działania (decyzje, strategie) wybiorą inni gracze, mówimy, 
że strategia ta Ściśle dominuje nad pozostałymi możliwymi strategiami tego gracza. Określona strategia jest 
„zdecydowanie lepsza”, jeśli wypłata dla tej strategii jest większa od wypłat dla wszystkich innych możliwych strategii. 
W dylemacie więźnia przyznanie się do winy ściśle dominuje nad zaprzeczaniem. 


Przykład 4 


Światła na przejściu. Zachowanie się kierowcy na skrzyżowaniu ze światłami może być modelowane przy pomocy 
teorii gier w sposób częściowo podobny do dylematu więźnia. Kiedy kierowca w porannym korku dojeżdża do 
skrzyżowania i napotyka czerwone światło, ma dwie możliwości ruchu: 


a) poczekać na zielone światło, 
b) przeskoczyć na czerwonym świetle. 


W tej grze uczestniczy dwóch graczy — pierwszym graczem jest kierowca, zaś drugim są wszyscy pozostali kierowcy 
czekający obok niego na tym samym skrzyżowaniu i również chcący jak najszybciej dojechać. Jeśli kierowca poczeka i 
inni również poczekają, to będzie on musiał czekać czas d, który jest potrzebny to zmiany Światła z czerwonego na 
zielone. Jeśli nasz kierowca przeskoczy podczas gdy inni poczekają, to jego opóźnienie wyniesie 0. W sytuacji w której 
wszyscy złamią prawo całkowite opóźnienie kierowcy wyniesie D (wskutek zatoru i zajeżdżana niemiłych kierowców z 
boku), natomiast jeśli nasz kierowca poczeka, zaś inni przeskoczą, to jego opóźnienie będzie wynosiło d+D. Możemy 
zapisać wypłaty kierowcy w postaci tabelki (macierzy) i, podobnie do dylematu więźnia, znaleźć najlepszą strategię dla 
kierowcy. 


kierowca: \ pozostali: czekanie na zielone przeskok na czerwonym 
czekanie na zielone d d+D 
przeskok na czerwonym 0 D 


3. Podstawy teorii gier: Gracze, preferencje i użyteczność 


Agent, czyli gracz, jest z definicji uczestnikiem gry posiadającym pewne preferencje. Teoretycy gier, tacy jak 
ekonomiści lub filozofowie studiujący podejmowanie racjonalnych decyzji, opisują owe preferencje przy pomocy 
abstrakcyjnej koncepcji użyteczności, określającej ilość korzyści (czy też „dobrobytu”) którą gracz wynosi lub osiąga 
dla danego wyniku gry. Przykładowo, w ekonomii możemy określać względny dobrobyt różnych państw (które dla 
pewnych celów możemy modelować jako graczy) przy pomocy średniego dochodu na głowę mieszkańca, zaś w 
biologii możemy określać względny dobrobyt zwierzęcia przy pomocy jego dostosowania (fitness), czyli zdolności 
przekazywania materiału genetycznego kolejnym pokoleniom. W przypadku gier z udziałem ludzi, najczęstszą praktyką 
w zastosowaniach teorii gier jest określanie dobrobytu graczy na podstawie ich własnych sądów na ten temat. Zatem 
osoba która lubi czereśnie lecz nie lubi wiśni będzie preferowała (czyli przypisywała większą użyteczność) takie 
sytuacje, w których może jeść więcej czereśni i mniej wiśni, nad takimi, w których musi jeść więcej wiśni i mniej 
czereśni. 


Ponieważ teoria gier jest teorią matematyczną, musimy dysponować jakimś sposobem ujęcia zagadnienia 
maksymalizacji użyteczności w terminach matematycznych. W tym właśnie celu określamy funkcję użyteczności zwaną 
też funkcją wypłaty lub po prostu wypłatą, jako odwzorowanie przypisujące liczby rzeczywiste elementom 
uporządkowanego zbioru preferencji danego gracza. Przykładowa funkcja użyteczności wygląda następująco: 


preferencja a -> 3 
preferencja b -> 2 
preferencja c -> 1. 


Jedyną cechą preferencji zachowywaną przez to odwzorowanie jest uporządkowanie preferencji. Wartości 
przypisywanych liczb są a priori dowolne — tzn. nie jest istotne to, że wartość przypisywana preferencji a jest trzy razy 
większa od wartości przypisywanej preferencji c. W związku z tym moglibyśmy skonstruować podobną funkcję 
wypłaty dokonując przypisania: 


preferencja a -> 4632 
preferencja b -> 3,14159 
preferencja c -> - 300000. 


Grą nazywa się wszystkie sytuacje, w których przynajmniej jeden uczestnik (agent, gracz) działa wyłącznie w celu 
maksymalizacji swoich korzyści poprzez antycypowanie (jawne, lub wynikające z jego zachowania) reakcji na swoje 
działania ze strony innych uczestników. Jeśli wszyscy uczestnicy podejmują najkorzystniejsze działania niezależnie od 
tego co robią inni gracze, tak jak w przypadku monopolu na pewien towar, możemy tę sytuację modelować bez użycia 
teorii gier. W pozostałych przypadkach teoria gier staje się niezbędna. 


W ramach tej teorii zakładamy, że gracze są racjonalni (w sensie ekonomicznym), co oznacza, że gracz: 


a) jest w stanie określać możliwe wyniki w grze, 

b) jest w stanie określać decyzje które prowadzą do określonych wyników, 

c) podejmuje działania które prowadzą do najbardziej preferowanych wyników w zależności od działań innych 
graczy. 


Tego rodzaju racjonalność nie musi być związana z jakąkolwiek wewnętrzną świadomością gracza. Może ona zawierać 
się w pewnych warunkach określonych przez naturalną, kulturową czy ekonomiczną selekcję (wybór). W 
szczególności, mówiąc o pewnym działaniu jako „wybranym” nie zakładamy, że było ono podjęte po jakimkolwiek 
świadomym namyśle. Istotne jest tylko to, że pewne określone działanie zostało podjęte w sytuacji, w której było 
możliwe również inne działanie (lub działania). 


Każdy gracz w grze ma bowiem do wyboru co najmniej dwie możliwe strategie (sposoby działania). Strategia określa, 
jakie działania podjąć w odpowiedzi na wszystkie możliwe działania (strategie) innych graczy. Kluczowym aspektem 
określającym grę jest to, jaką informacją dysponują gracze w momencie podejmowania decyzji. Najprostszymi grami są 
takie, w których gracze dysponują pełną informacją, co oznacza, że przy każdej decyzji gracz wie wszystko, co się stało 
do tego momentu w grze. Przykładem takiej gry są szachy. Natomiast gry ze ściganym i ścigającym są najczęściej 
grami o niepełnej informacji, gdyż zarówno ścigany, jak i ścigający, nie wiedzą wszystkiego o ruchach już podjętych w 
grze. Oczywiście, charakter informacji którym się dysponuje w grze istotnie określa zachowanie gracza w grze i 
zmienia wyraźnie logikę podejmowanych decyzji. 


4. Matematyczne modele gier: drzewa i macierze 


Różnica pomiędzy grami z pełną i niepełną informacją jest zbliżona (lecz nie równoważna!) do różnicy pomiędzy 
sposobami reprezentowania gier. Podzielmy gry na takie w których gracze dokonują ruchów naprzemiennych i takie, w 
których gracze dokonują ruchów symultanicznych (równoczesnych), przy czym równoczesność mierzymy tutaj nie w 
terminach jakiegoś obiektywnego, zewnętrznego czasu, ale w terminach przepływu informacji. Innymi słowy, istotne 
jest to, kiedy gracze dowiadują się o działaniach innych graczy. Przykładowo, jeśli dwie firmy planują strategie 
rynkowe, to jedna z nich może określić swoją strategię kilka miesięcy przed drugą, lecz żadna nie zna strategii drugiej 
firmy podczas podejmowania decyzji o własnej strategii, zatem taka gra jest przykładem gry równoczesnej. Z, drugiej 
strony prostym przykładem gry z posunięciami naprzemiennymi są szachy. 


Podział na gry z posunięciami równoczesnymi (gry symultaniczne) i naprzemiennymi (gry pozycyjne) nie jest do końca 
równoważny podziałowi na gry z pełną i niepełną informacją. Z pewnością wszystkie gry równoczesne są grami z 
niepełną informacją. Jednak niektóre gry mogą łączyć w sobie elementy równoczesne i naprzemienne. Przykładowo, 
wspomniane dwie firmy mogą wprawdzie określić swoje strategie niezależnie, nie informując się o nich nawzajem, po 
czym jednak zaczynają je realizować, wchodząc we współzawodnictwo cenowe, co jest już elementem naprzemiennym 
w grze. Gry, które dopuszczają strategie mieszane, są grami o niepełnej informacji, zaś gry z pełną informacją 
występują w przypadkach, kiedy żadne ruchy nie są równoczesne (oraz kiedy żaden gracz nie zapomina o czymkolwiek 
co się działo w przeszłości). 


Gry z pełną informacją są najprostszym rodzajem gier, ponieważ — o ile gra kończy się po skończonej liczbie ruchów — 
gracze i analitycy mogą użyć konkretnych procedur do przewidywania wyników gry. Racjonalny gracz (a tylko takich 
tu rozważamy) wybiera swoje pierwsze działanie rozważając każdą z sekwencji reakcji i kontr-reakcji, jakie będą 
konsekwencjami danego wybranego działania. Następnie gracz określa, który z możliwych wyników takich sekwencji 
jest najbardziej dla niego użyteczny (ma dla niego największą wartość = jest najbardziej preferowany) i wybiera 
działanie, które rozpoczyna sekwencję działań prowadzącą do określonego rezultatu. Taki proces nazywa się indukcją 
wsteczną, ponieważ wnioskowanie działa wstecz, zaczynając od ewentualnych wyników sekwencji decyzji. Z tak 
opisanym procesem wiąże się sposób reprezentacji gier pod postacią drzewa. Jest to sposób alternatywny do 
przedstawiana gier pod postacią macierzy (tabelki). Drzewo gry jest przykładem matematycznego obiektu nazywanego 
grafem skierowanym. Składa się on z wierzchołków, oraz łączących je linii, przy czym graf ten, jako całość, ma 
określony kierunek. Drzewa gier rysuje się zazwyczaj z góry do dołu, lub też z lewa na prawo. Położone wyżej (lub 
bardziej na lewo) wierzchołki są rozumiane jako wcześniejsze od tych, które są położone niżej (lub bardziej na prawo). 


Przykładowe drzewo gry wygląda następująco: 


Drzewa są używane do reprezentacji gier o naprzemiennej sekwencji działań, ponieważ pokazują kolejność działań 
podejmowanych przez graczy. Do reprezentacji (matematycznego modelowania) gier stosuje się również macierze, w 
których nie podaje się informacji o sekwencji ruchów, ale wygrane (wypłaty) otrzymywane na skutek wybrania przez 
graczy określonej kombinacji strategii. Przykładem takiej reprezentacji jest oczywiście macierzowy zapis dylematu 
więźnia: 


II Przyznanie się Zaprzeczenie 
Przyznanie się 3,3 0,4 
Zaprzeczenie 4,0 2;2 


Gry wyrażane przy pomocy macierzy nazywane są grami w postaci normalnej albo w postaci strategicznej, natomiast 
zapisane przy pomocy drzewa nazywane są grami w postaci rozwiniętej lub ekstensywnej. Te dwie postacie nie są sobie 
równoważne. Gry ekstensywne zawierają w sobie informację o kolejności ruchów, oraz o stopniu w jakim gracze w 
poszczególnych ruchach są poinformowani na temat struktury gry, podczas gdy w grach o postaci strategicznej nie 
mamy dostępu do takiej informacji. Zatem jeśli kolejność ruchów w grze jest nieistotna dla wyniku gry, można badać tę 
grę w reprezentacji (zapisie) macierzowym, natomiast jeśli kolejność gry jest istotna, to trzeba koniecznie określić 
postać ekstensywną danej gry. 


Podczas zapisu gry w postaci ekstensywnej mamy do czynienia z następującymi obiektami: 


e  Wierzchołki. są to punkty w których gracz podejmuje 
decyzje (działa). 

e Wierzchołek początkowy: jest to punkt w którym zachodzi 
pierwsze zdarzenie (decyzja) w grze. 


e  Wierzchołki końcowe: są to takie punkty, których 
osiągnięcie kończy grę. Każdy wierzchołek końcowy ma 


przypisany pewien określony wynik. LI 
e  Podgra: dowolny zbiór wierzchołków i łączących je 
krawędzi, które wychodzą (zgodnie z kierunkiem drzewa) z 
z . D C D C 
określonego wierzchołka. 
e Strategia: sposób określający decyzje danego gracza w je je G © 
(2.2) (4,0) (0,4) (3.3) 


każdym z wierzchołków drzewa, w którym może on podjąć 
jakąś decyzję. 


Rozważmy teraz dylemat więźnia w postaci ekstensywnej. Załóżmy, że gracze I i II nie poruszają się równocześnie, 
czyli każdy z graczy podejmuje decyzję po zaobserwowaniu działania drugiego gracza. Załóżmy, że przed wsadzeniem 
do więzienia (i koniecznością podjęcia decyzji) umówili się oni na strategię wspólnego nieprzyznawania się do winy. 
W związku z tym w sytuacji gry obydwaj gracze mogą współpracować, wierzchołki grafu są wierzchołkami 
końcowymi. Każdy w wierzchołków końcowych przypisuje każdemu graczowi pewien wynik, który przy pomocy 
funkcji wypłaty zamienia się w konkretną liczbę. W sytuacji ekstensywnej postaci dylematu więźnia mamy więc do 
czynienia z przypisaniem do każdego końcowego wierzchołka grafu pary liczb odpowiadającej wypłatom (liczbie lat 
odsiadki) obydwu graczy. Drzewo tej gry pokazane jest na powyższym rysunku. Widać, że równoczesna 
(symultaniczna) oraz naprzemienna (sekwencyjna) postać tej gry są sobie równoważne (z dokładnością do arbitralnie 
określonych wartości funkcji wypłaty). W przypadku dowolnej gry nie jest to jednak prawdą! 


5. Klasyfikacja gier 


Gry mogą być klasyfikowane według kilku kryteriów. Często spotyka się następujące klasyfikacje: 


Według liczby graczy: 1, 2 lub więcej graczy. W przypadku co najmniej dwóch graczy należy wziąć pod uwagę 
możliwość powstania koalicji, czyli współpracy. Wówczas dokonujemy podziału na gry ze współpracą 
(kooperacyjne) i gry bez współpracy (niekooperacyjne). 


Według inteligencji graczy: Inteligentny gracz jest to gracz, który zawsze zachowuje się racjonalnie, czyli używa 
najlepszych logicznie strategii (tzw. strategii optymalnych). Nieinteligentny gracz wybiera strategię drogą 
losowania lub sam zachowuje się jak „„mmechanizm” losowy nieprzewidywalny dla drugiego gracza. 
Wreszcie p-inteligentny gracz to gracz, który czasami używa złych strategii, gdzie parametr p jest 
prawdopodobieństwem użycia przez niego strategii optymalnej. Wówczas 0-inteligentny gracz to po 
prostu gracz nieinteligentny, zaś l-inteligentny gracz jest graczem inteligentnym. 


Według właściwości zbioru strategii. Dla przykładu — gra skończona jest grą, w której zbiór strategii jest 
skończony (dla gier o pełnej informacji jest to gra o formie macierzowej), zaś gra nieskończona to taka 
dla której zbiór strategii jest nieskończony. 


Według sumy wypłat. Ważnym podziałem gier jest podział na gry o sumie stałej (w szczególnym przypadku są to 
gry o sumie zerowej; zresztą często mówiąc o nich ma się na myśli gry o sumie stałej), gdzie mamy do 
czynienia z konfliktem, gdyż wypłata jednego gracza może się zwiększyć jedynie kosztem wypłaty innych 
graczy, oraz gry o sumie niezerowej, w przypadku których wypłaty dla graczy niekoniecznie muszą mieć 
różne znaki, zaś gra nie musi być konfliktem (każdy gracz może zyskać w tej grze). 


Według reprezentacji: Jest to już wcześniej omówiony podział na gry ekstensywne (o postaci rozwiniętej — czyli 
drzewa) oraz gry strategiczne (o postaci normalnej — czyli macierzy). 


Według dostępnej informacji. Są to omawiane wyżej gry w których gracze dysponują pełną (kompletną) lub 
niepełną (niekompletną) informacją. 


6. Strategie i równowaga w grach bez współpracy 


Teoria gier bada strategie, które mogą być realizowane przez graczy w zależności od przyjętych przez nich preferencji. 
Oczywiście najbardziej interesującym jest zagadnienie wyboru strategii optymalnej. Przy rozważaniu dylematu więźnia 
określiliśmy obustronne przyznanie się do winy jako strategię optymalną a zarazem jako rozwiązanie gry. Zgodnie z 
ogólną praktyką w ekonomii, teoretycy gier określają rozwiązania gier (przynajmniej w przypadku gier bez 
współpracy) jako stany równowagi. Innymi słowy, podstawową zasadą optymalnego działania jest zasada osiągania 
celu (= rozwiązania) którym jest sytuacja równowagi. Termin „równowaga w fizyce i ekonomii oznacza, że dany 
system jest w stanie stabilnym, czyli wszystkie siły działające wewnątrz układu równoważą się i pozostawiają system w 
niezmienionym stanie, aż do momentu zadziałania jakiejś siły zewnętrznej. Analogicznie w teorii gier przez 
równowagę rozumiemy taki wybór strategii dokonany przez graczy, że dowolna zmiana strategii przez jednego gracza 
(przy równoczesnym braku zmiany strategii przez pozostałych graczy) nie spowoduje wzrostu wygranej tego gracza. 
Tak zdefiniowaną równowagę nazywa się równowagą Nasha (została ona wprowadzona przez Johna Nasha, noblistę 
sportretowanego fabularnie w filmie „Piękny umysł”). Jeśli gra posiada tylko jedną strategię równowagową Nasha, tak 
jak w przypadku dylematu więźnia, gdzie równowagą Nasha jest wspólne przyznanie się do winy, to jest to jedyne 
rozwiązanie tej gry. Gry mają często więcej niż jedną strategię Nasha (równowagę Nasha) i dlatego dylemat więźnia 
uważany jest za łatwą (i nietypową) grę. 


Możemy określić klasę gier w których równowaga Nasha jest nie tylko koniecznym, ale także wystarczającym 
warunkiem podania rozwiązania. Są to gry o sumie zerowej (lub stałej) z pełną informacją. Jak już mówiliśmy, w grze o 
sumie zerowej (lub stałej) gracz może polepszyć swoją sytuację jedynie poprzez pogorszenie sytuacji pozostałych 
graczy. Wówczas, jeśli gracze grają najlepiej jak potrafią, to wszyscy mogą jedynie zmaksymalizować swoje 
minimalne wygrane (czyli zastosować procedurę maxmin), wskutek czego nie ma innego rozwiązania niż jedno 
położenie równowagowe Nasha. Jednakże wiele gier nie ma tej własności i może istnieć kilka różnych położeń 
równowagowych Nasha. W szczególności jest tak dla gier o sumie niezerowej. 


Dwuosobowa gra o sumie niezerowej to taka gra, w której wynik gry nie jest już wygraną jednego gracza i przegraną 
drugiego lub ma wartość stałą (co w efekcie może być sprowadzone do zera), lecz ma wartość niezerową oraz niestałą, i 
zależy od wyboru strategii przez graczy. Zbiory strategii obu graczy są skończone i stałe. Cele graczy nie są już w tym 
przypadku przeciwstawne. Obaj gracze mogą na przykład minimalizować lub maksymalizować jednocześnie różne 
wielkości, co prowadzi zawsze do niezerowego wyniku w grze. Dla takich gier może istnieć kilka położeń równowagi 
Nasha. Znajdźmy teraz wszystkie strategie równowagowe Nasha dla następującej gry wyrażanej w postaci macierzy kar 


(negatywnych wypłat): 


| (02) (3,5) (4,8) 
| es (8,-3) (3-5) 


Zgodnie z definicją, szukamy takich par strategii graczy, że dowolna zmiana strategii przez jednego spośród graczy 
(przy równoczesnym braku zmiany strategii przez drugiego gracza) nie spowoduje wzrostu wygranej tego gracza. 
Widać, że w grze tej istnieją dwie pary strategii będących w równowadze Nasha (będących strategiami Nasha): 


A) para (0,2), ponieważ 0 < 2 w pierwszej kolumnie (czyli jest to najlepsza strategia gracza grajacego 
wierszami przy ustalonej strategii gracza grającego kolumnami) oraz 2 < 51 2 < 8 w pierwszym 
wierszu (czyli jest to najlepsza strategia gracza grającego kolumnami przy ustalonej strategii gracza 
grającego wierszami). 


B) para (3,-5), ponieważ 3 < 4 oraz -5 < -3 i -5 < 4 (analogicznie). 


Z tego przykładu widać, jaka jest prosta metoda wykrywania strategii równowagowych Nasha. Rozważmy dowolny 
element macierzy wypłat (pozytywnych). Jeśli pierwszy składnik tej pary jest maksymalną liczbą w danej kolumnie, 
zaš drugi składnik pary jest maksymalną liczbą w danym wierszu, to wówczas dana komórka reprezentuje strategię 
równowagową. Oczywiście, jest tak w sytuacji w której mamy do czynienia z nagrodami. Jeśli mamy do czynienia z 
macierzą wyrażającą grę w terminach kar, to gracze dążą do minimalizacji kar, wskutek czego powyższa procedura 
zamienia się w poszukiwanie minimów. W typowych sytuacjach, jeśli spotyka się macierz gry bez podanej interpretacji, 
należy założyć, że jest to macierz wypłat pozytywnych, czyli inaczej niż w dylemacie więźnia. 


Aby wybrać jedno rozwiązanie spośród kilku dostępnych strategii Nasha trzeba odwołać się do dodatkowych kryteriów, 
które przynajmniej po części mogą być arbitralne. Jeśli dana gra nie posiada strategii Nasha, to mówimy, że nie istnieje 
równowaga Nasha w czystych strategiach. W tym przypadku aby znaleźć rozwiązanie można stosować strategie 
mieszane. 


6. Strategie mieszane 


Warto rozróżniać pomiędzy strategiami czystymi i mieszanymi. Elementy zbioru strategii Si, nazywamy strategiami 
czystymi (de facto wszystkie strategie omawiane w zeszłym tygodniu były strategiami czystymi). Natomiast strategia 
mieszana polega na połączeniu (wymieszaniu) poszczególnych strategii czystych poprzez wybieranie każdej z 
dostępnych strategii czystych z pewnym prawdopodobieństwem (oczywiście, każda czysta strategia może być 
rozważana jako szczególny przypadek strategii mieszanej, dla której wybiera się określoną czystą strategię z 
prawdopodobieństwem równym 1, zaś pozostałe z prawdopodobieństwem równym 0). Niejednokrotnie gry, które nie 
posiadają równowagi Nasha w strategiach czystych, posiadają takową w strategiach mieszanych. 


Przykład 


Rozważmy następującą grę. Każdy z dwóch graczy podaje w tej samej chwili jedną z liczb: „jeden” lub „dwa”. Gracz I 
wygrywa jeśli suma podanych liczb jest nieparzysta, natomiast gracz II wygrywa jeśli suma podanych liczb jest 
parzysta. Przegrywający musi zapłacić wygrywającemu taką liczbę złotych, ile wynosi suma podanych liczb. Zbiory 
strategii w tej grze to Si= 41, 2}, Sn= 41, 2), natomiast funkcja wypłaty u, dana jest przez macierz 


gracz II: „1” gracz II: „2” 
gracz I: „1” -2 +3 
gracz I: „2” +3 -4 


Natomiast postać macierzowa gry jest następująca: 


gracz II: „1” gracz II: „2” 
gracz I: „1” (-2,2) (+3,-3) 
gracz I: „2” (+3,-3) (-4,+4) 


Okazuje się, że jeden z graczy ma większą korzyść z tej gry. Zanalizujmy teraz tę grę z perspektywy gracza I. Załóżmy, 
że na pięć losowań trzy razy losuje on „„1”, a dwa razy ,„2”, w kolejności przypadkowej. W takiej sytuacji: 


a) jeśli gracz II powie „1”, to gracz I traci 2 złote w 3/5 przypadków i wygrywa 3 złote 
w 2/5 przypadków. Średnio wygrywa on 3/5*(-2 zł) + 2/5*(3 zł) = 0 zł. 


b) jeśli gracz II powie „2”, to gracz I zyskuje 3 złote w 3/5 przypadków i traci 4 złote 
w 2/5 przypadków: Srednio wygrywa więc 3/5*(3 zł) + 2/5*(—4 zł) = 1/5 zł. 


Oznacza to, że jeśli gracz I wymiesza swoje strategie (wybory strategii) w powyższy sposób, to gra jest sprawiedliwa za 
każdym razem kiedy gracz II powie „1”, ale jeśli gracz II powie „2”, to średnio rzecz biorąc gracz I wygrywa 20 
groszy. Rodzi się pytanie, czy w tej sytuacji gracz I może wybrać taką strategię, która zagwarantuje mu niezerową 
wygraną niezależnie od tego co zrobi drugi gracz? 


Niech p oznacza prawdopodobieństwo tego, że gracz I wybiera „l”. Znajdziemy teraz takie p, dla którego gracz I 


wygrywa średnio taką samą ilość pieniędzy niezależnie od tego, czy gracz II wybierze ,„1” czy „2”. Średnia wartość 
wygranej gracza I w przypadku kiedy gracz II powie „1” wynosi 


p*>2) + (1-p)*3, 
zaś jego średnia wygrana kiedy gracz II powie ,„2” wynosi 
p*3 + (1-p)* (4). 


Szukamy zatem takiego p, że 


-2p + 3(1--p) = 3p — 4(1-p), 


p= 7/12. 


Co po przekształceniu daje 


Oznacza to, że gracz I powinien wybierać opcję „l” z prawdopodobieństwem 7/12, zaś „2” z prawdopodobieństwem 
5/12. Przy założeniu tej strategii gracz I wygrywa średnio 


—2*(7/12) + 3*(5/12), 


czyli 8'⁄ grosza, niezależnie od tego, co zrobi gracz II. Taka strategia mieszana, która daje te same średnie wygrane 
niezależnie od tego, co robi przeciwnik nazywa się strategią wyrównującą. 


W tej sytuacji powstaje pytanie, czy gracz II może mieszać z pewnym prawdopodobieństwem swoje strategie tak, żeby 
gracz I nie osiągnął większy zysk niż powyższy. Korzystając z tej samej metody, można łatwo policzyć, że gracz II 
może zapewnić sobie stałą średnią przegraną nie większą niż 1/12 złotego, podczas gdy gracz I może zapewnić sobie 
stałą średnią wygraną nie mniejszą niż 1/12 złotego. W takiej sytuacji 1/12 złotego nazywa się wartością gry, zaś 
strategia, którą każdy z graczy używa w celu uzyskania tej średniej wartości, jest strategią minimaxu. 


7. Gry powtarzane (iterowane) 


Dotąd zajmowaliśmy się grami jednorazowymi, tzn. takimi, w których strategiczne decyzje poszczególnych graczy nie 
mają konsekwencji sięgających dalej niż określony wynik w grze. Jednak gry są często grane wielokrotnie, zaś gracz 
grając w konkretnej instancji (edycji) gry musi mieć na uwadze kolejne gry przy podejmowaniu decyzji na temat swojej 
strategii. 


Wróćmy do dylematu więźnia. Jedyną równowagą Nasha w tej grze jest obustronne przyznanie się do winy. Jednak ta 
strategia może przestać być najlepszą strategią w wypadku wielokrotnej konieczności powtarzania tej gry. Wyobraźmy 
sobie cztery firmy produkujące ten sam rodzaj produktu, które dogadują się, aby podwyższyć cenę na ich produkt 
poprzez wspólne ograniczenie dostaw (w ten sposób formując kartel). Dla każdej firmy z osobna najlepszą strategią 
byłoby złamanie umowy przy założeniu, że pozostałe firmy pozostaną przy swoich cenach. Dlatego, jeśli ta gra miałaby 
być rozgrywana jednokrotnie, to powyższy kartel nie miałby racji bytu. Jednakże, firmy spodziewają się, że będą 
musiały istnieć wspólnie na rynku przez dłuższy czas. W związku z tym każda z nich wie, że jeśli złamie ona umowę 
kartelu, to pozostałe firmy ukarzą ją poprzez długotrwałe obniżenie swoich produktów, powodując większe straty niż 
dana firma może wynieść ze złamania umowy. Oczywiście, obniżenie cen wykonane przez pozostałe firmy nie jest dla 
nich bezpośrednio zyskowne z perspektywy krótkoterminowej, lecz z perspektywy długoterminowej utworzenie kartelu 
dyktującego ceny może być tego warte. 


Prostą i słynną (lecz niekoniecznie zawsze optymalną) strategią współpracy w powtarzanym (iterowanym) dylemacie 


więźnia jest zasada zwana „wet za wet”: 


a) Zawsze współpracuj w pierwszej rundzie, 
b) Następnie, postępuj dokładnie tak, jak postąpił twój przeciwnik w poprzedniej rundzie. 


Pomimo prostoty, strategia ta jest zaskakująco wydajna, ponieważ spełnia najważniejsze kryteria: 


przyjazność — nie zrywa współpracy jako pierwsza 

natychmiastowa obrona — na atak odpowiada odwetem 

przewidywalność — przeciwnik może łatwo przewidzieć jej zachowanie i dostosować się do niego 

skłonność do wybaczania — jeśli przeciwnik zmieni swoje postępowanie potrafi wybaczyć 

ma gwarancje, że nie da wyniku gorszego niż wynik przeciwnika o więcej niż różnica jednej rundy, przez co 
odporna jest nie tylko na graczy racjonalnych, którym zależy na jak najwyższym wyniku własnym, ale też na 
graczy zazdrosnych, którym zależy na jak największej różnicy wyników. 


OWORZORUD 


Grupa graczy grająca w dylemat więźnia według zasady „wet za wet” nigdy nie doświadczy żadnego przyznania się do 
winy, czyli zdrady. Z tego wynika, że „wet za wet” jest długoterminową strategią równowagową Nasha w populacji, w 
której wszyscy grają według strategii „wet za wet”. 


Równowagowość tej strategii opiera się na istotnym założeniu, że gracze muszą być niepewni tego, kiedy zakończą się 
ich wspólne gry. Załóżmy, że gracze wiedzą, kiedy nadejdzie ostatnia runda. W tej rundzie już nie muszą obawiać się 
kary, zatem racjonalnym działaniem dla graczy będzie zdrada (przyznanie się do winy), ponieważ po ostatniej rundzie 
nie ma już żadnej możliwości poniesienia kary za to działanie. Rozważmy teraz przedostatnią rundę. Gracze nie 
poniosą również żadnej kary za przyznanie się w tej rundzie, gdyż i tak przyznają się w ostatniej, zatem w 
przedostatniej rundzie również zdradzą. To rozumowanie można w analogiczny sposób kontynuować aż do pierwszej 
rundy, wskutek czego strategia „wet za wet” traci (racjonalny) sens, zaś równowagową strategią w tej sytuacji staje się, 
tak samo jak w jednokrotnym dylemacie więźnia, obustronne przyznanie się do winy. Oznacza to, że współpraca w 
wielokrotnym dylemacie więźnia jest możliwa tylko jeśli liczba powtórzeń gry jest nieznana. Ten wniosek stosuje się 
również do bardziej skomplikowanych gier granych przez ludzi w sytuacjach życia codziennego. 


8. Gry ze współpracą (kooperacją) 


W teorii gier grami ze współpracą (albo grami kooperatywnymi) nazywa się takie gry, w których wszystkie 
równowagowe czyste strategie Nasha są sytuacjami, w których gracze wybierają te same, lub odpowiadające sobie 
strategie. Gra ze współpracą jest zatem taką grą, w której funkcja wypłaty dwóch lub większej liczby graczy jest 
zmaksymalizowana kiedy obydwaj robią to samo i kiedy to, że obydwaj robią to samo, jest dla nich ważniejsze od tego 
co robią. Przykładem gry koordynacyjnej jest „gra? w kierunek ruchu drogowego: zarówno rozwiązanie „wszyscy 
jeżdżą lewą stroną”, jak i „wszyscy jeżdżą prawą stroną”, jest równowagą Nasha, ale żadne nie jest lepsze od innego. 
Jednak w realnej sytuacji zostaje ostatecznie wybrana tylko jedna z tych strategii, wskutek dopasowywania się 
(uzgadniania, kooperacji, koordynacji) pomiędzy graczami. 


Przykładem gry ze współpracą jest gra z dwoma graczami, gdzie pierwszy z nich dysponuje strategiami {Lewo, 
Prawo}, zaś dostępne strategie drugiego to 4Góra, Dół}, przy czym strategia „Lewo” jest określona jako 
współpracująca ze strategią „„Góra”, zaś strategia „„Prawo” jako współpracująca ze strategią „Dół”. W takiej sytuacji 
macierz tej gry wygląda następująco: 


gracz I: Lewo gracz I: Prawo 
gracz II: Góra (A, a) (C, b) 
gracz II: Dół (B, c) (D, d) 


Powyżej opisana sytuacja współpracy oznacza, że wypłaty gracza II są opisane nierównościami A > B oraz D > C, zaś 
wypłaty gracza I spełniają warunki a > b oraz d > c. W tej grze istnieją dwa profile strategii, które są równowagami 
Nasha: fLewo, Góra) oraz {Prawo, Dół}. W grach ze współpracą można również rozważać strategie mieszane i 
równowagi Nasha w strategiach mieszanych. 


Przykład 


Być może najsłynniejszym przykładem gry ze współpracą jest tzw. walka płci. W tej grze mamy do czynienia z dwoma 
graczami. Pierwszym graczem jest kobieta, która lubi chodzić do zakupy (Z), zaś graczem drugim jest mężczyzna, 
który lubi chodzić na mecze piłkarskie (P). Przede wszystkim jednak obydwoje chcieliby być razem (lub po prostu 


spotkać się). Jeśli nie weźmiemy pod uwagę możliwości współpracy przy podejmowaniu decyzji w drodze umowy (np. 
porozumienia się przez telefon), to mamy do czynienia z grą, którą można opisać przy pomocy następującej macierzy: 


J:Z J:P 
:Z 11, 10 0,0 
Q:P  |1,1 10,11 


Równowagami Nasha są tu pary decyzji (Z,Z) i (P,P) - bo jeśli wiadomo, że ona (on) pójdzie na zakupy (na mecz 
piłkarski), to lepiej odpowiednio dostosować swoją decyzję. Jeśli jest to gra powtarzalna i ma sens rozpatrywanie 
strategii mieszanych (prawdopodobieństw pójścia na zakupy i na mecz pierwszego i drugiego gracza), to można 
wyznaczyć jeszcze jedną równowagę w strategiach mieszanych. Odpowiada ona prawdopodobieństwom (w tym 
przypadku) 11/20 pójścia na rozrywkę preferowaną oraz jednakowym wartościom oczekiwanym wypłaty dla obu 
graczy. Wartości te są jednak niskie w porównaniu z dwoma równowagami w strategiach czystych; w dodatku, 
równowaga w strategiach mieszanych jest niestabilna (jakiekolwiek odchylenie od strategii równowagowych powoduje 
zwiększenie tego odchylenia i przejście do którejś z równowag w strategiach czystych). Z przykładu tego nie wynika 
bynajmniej, że w tej sytuacji jedna ze stron musi ustąpić i niemożliwe jest rozsądne rozwiązanie symetryczne. Przykład 
ten ilustruje tylko ograniczenia teorii gier w zastosowaniu do negocjacji: rozsądnym rozwiązaniem jest bowiem 
zrzucenie pychy z serca i umówienie się przez telefon, że jutro idziemy oboje na zakupy, a następnym razem oboje na 
mecz. 


9. Ewolucyjna teoria gier 


Teoria gier znalazła owocne zastosowanie w biologii ewolucyjnej. Jako graczy w ramach tej dziedziny traktuje się 
często poszczególne gatunki lub/i geny, natomiast reguły gry określone są przez naturalną selekcję, która określa 
zmienianie się i wymieranie gatunków. Przy zadanym środowisku każdy osobnik danego gatunku ma tym większą 
wypłatę, im większą liczbę potomków spłodzi dzięki swoim cechom. Wskutek tego jego cechy rozprzestrzenią się 
bardziej w ramach populacji. W niektórych sytuacjach jego cechy mogą rozprzestrzenić się na całą populację, zaś w 
innych przypadkach jedynie na stabilny procent populacji (np. 60%). 


Jednym z najważniejszych aspektów środowiska, w którym żyje dany organizm lub gatunek, są zachowania innych 
organizmów. Jest zatem sensowne badanie takich sytuacji, w których każdy lineaż (linia rodowa osobników o 
określonych cechach) stara się zmaksymalizować swoje dostosowanie (oczekiwaną liczbę potomków) poprzez 
wybieranie strategii, które są optymalne przy określonych strategiach innych lineaży. 


W ewolucyjnej teorii gier (zwanej również dynamiczną teorią gier) nie rozważamy już osobników wybierających 
określone strategie, ani równowagowych położeń pojedynczych gier. Teoria ta rozważa grę poszczególnych strategii 
grających przeciwko sobie (lub ogólnie — względem siebie). W tej sytuacji dana strategia jest „lepsza” od innej, jeśli 
pozostawia więcej kopii siebie samej w następnym pokoleniu, kiedy gra jest rozgrywana jeszcze raz. Ewolucyjna teoria 
gier bada zmiany rozkładu różnych strategii w populacji wraz z kolejnymi grami. 


Dla tak określonej dynamicznej teorii gier Maynard Smith wprowadził nowe pojęcie równowagi. Zbiór strategii 
(wziętych w określonych proporcjach zawsze sumujących się do jedności, np. 1/3:1/2, 50%:50%, 1/3:1/3:1/6:1/6) jest 
nazywany strategią ewolucyjnie stabilną (ESS), jeśli: 


1. żaden osobnik nie może zwiększyć swojego dostosowania (rozrodczego) poprzez zmianę strategii na inną, 
2. żaden mutant korzystający z innej strategii nie ma szans dokonania „inwazji” na badaną populację. 


Przykład 


Rozważmy populację składającą się z trzech rodzajów osobników, którzy się często spotykają parami i muszą wtedy 
podzielić się zasobami środowiska: 


Uczciwych, którzy chcą zawsze połowę zasobów; 

Zachłannych, którzy zawsze chcą więcej niż połowę zasobów. Kiedy jeden zachłanny spotyka innego zachłannego, 
to obydwaj tracą zasoby wskutek walki o nie; 

Skromnych, którzy chcą zawsze mniej niż połowę zasobów. Kiedy jeden skromny spotyka innego skromnego, 
wówczas korzystają oni tylko z części zasobów, i pewna część zasobów się marnuje. 


Załóżmy teraz, że zachłanni wymagają 2/3 zasobów, natomiast skromni wymagają 1/3 zasobów. Wówczas następujące 
dwie proporcje populacji są strategiami stabilnymi ewolucyjnie: 


1. Połowa populacji to zachłanni, a druga połowa to skromni. Policzmy średnią wypłatę w tej sytuacji. Skromni 
otrzymują 1/3 zasobów w każdym spotkaniu. Zachłanny dostaje 2/3 kiedy spotyka skromnego, zaś nic jeśli 
spotyka innego zachłannego. Zatem Średnia wypłata zachłannego wynosi również 1/3. Jest to ESS, ponieważ 
sprawiedliwy mutant nie może dokonać inwazji na tę populację. Gdyby jakiś sprawiedliwy dostał się do tej 
populacji, to w przypadku spotkania skromnego otrzymałby on 1/2 zasobów, natomiast w przypadku spotkania 
zachłannego uczciwy nie dostałby nic. Zatem średnia wypłata uczciwego wynosiłaby 1/4. W tej sytuacji żaden 
zachłanny ani skromny nie miałby zysku ze zmiany swojej strategii, więc pojedynczy uczciwy w tej populacji 
dostałby najmniej i jego strategia nie miałaby szans na propagację. 


2. Wszyscy gracze są uczciwi. Każdy dostaje połowę zasobów i nikt nie może polepszyć swojego bytu przez 
zmianę swojej strategii. Gdyby w tej populacji pojawił się zachłanny, to dostałby on średnią wypłatę równą 
zero. Natomiast dokonujący inwazji skromny dostałby średnio 1/3, co wynosi mniej niż średnia wypłata 
uczciwych, wskutek czego jego strategia nie miałaby szans na propagację. 


Warto zauważyć, że pierwsza równowaga jest nieefektywna, ponieważ średnia wypłata w całej populacji jest mniejsza 
niż średnia wypłata dla populacji w drugiej możliwej równowadze. Jednakże, tak samo jak w przypadku pojedynczych 
gier, nie ma ogólnego środka, który uniemożliwiałby wyboru (ustabilizowania się) nieefektywnych położeń równowagi. 


Co ciekawe, wybór określonego położenia równowagi w grze zależy od warunków początkowych gry, czyli od 
proporcji w jakiej dane strategie występowały na początku gry. Jeśli populacja rozpoczyna grę z więcej niż jednym 
uczciwym, wówczas istnieje pewne niezerowe prawdopodobieństwo, że uczciwi spotkają się i otrzymają największą 
możliwą wypłatę. Skromni nie powstrzymają wzrostu liczby uczciwych. Tylko zachłanni mogą zablokować wzrost 
liczby uczciwych, ale z drugiej strony liczba zachłannych zależy od dostępności odpowiedniej liczby skromnych. 
Zatem im więcej jest uczciwych w danej populacji względem par zachłanny-skromny, tym wyższy wynik średni 
otrzymają uczciwi. Jeśli liczba uczciwi w populacji spadnie poniżej 33,(3)%, to rozpocznie się ich wymieranie, 
ponieważ nie będą się wystarczająco często spotykać. Z drugiej strony, jeśli ich liczba w populacji przekroczy 33,(3)%, 
to zaczną oni dążyć do zdominowania całej populacji. Można to wyraźnie zobaczyć zauważając, że w sytuacji, w której 
każda ze strategii jest stosowana przez 1/3 (czyli 33,(3)%) populacji, to każda strategia ma oczekiwaną średnią wypłatę 
równą 1/3 zasobów. Zatem przekroczenie tego punktu krytycznego w którąkolwiek ze stron spowoduje dążenie do 
ustalenia się jednej z dwóch możliwych równowag ESS, osiągniętej kosztem wyginięcia uczciwych lub wszystkich 
pozostałych. 


Bardzo ciekawe jest to, w jaki sposób teoria gier tłumaczy altruizm, czyli takie zachowanie organizmu, które obniża 
jego własne dostosowanie na rzecz wzrostu dostosowania innego gracza. Tego rodzaju zachowanie jest dość często 
spotykane w przyrodzie. Rodzi się więc pytanie, jak jest ono możliwe w warunkach darwinowskiej walki o byt? 


Rozważmy serię dylematów więźnia rozgrywanych w populacji, składającej się ze zdrajców (agresorów) i 
współpracujących ze sobą (altruistów). Wypłaty w tej grze, jak zawsze w przypadku dynamicznych gier, są mierzone 
przy pomocy oczekiwanej liczby kopii danej strategii w następnym pokoleniu. 


Niech U(A) będzie średnim dostosowaniem strategii A w danej populacji, zaś U niech oznacza średnie przystosowanie 
w całej populacji (tzn. sumę U(A) po wszystkich A podzieloną przez liczbę możliwych strategii). Wówczas proporcja 
strategii A w następnym pokoleniu wynosi po prostu U(A)/U. W tej sytuacji jeśli A ma większe dostosowanie niż 
średnie dostosowanie w populacji, to liczba A rośnie w następny pokoleniu. Natomiast jeśli U(A) < U, to liczba A w 
następnym pokoleniu maleje. 


W dynamicznym dylemacie więźnia, w którym oddziaływanie pomiędzy osobnikami jest przypadkowe (bez korelacji), 
agresorzy mają lepsze wyniki niż średnia populacji, dopóki w pobliżu są jacyś altruiści. Wynika to z tego, że w 
pojedynczym (statycznym) dylemacie więźnia agresja (zdrada) jest zawsze strategią dominującą. Zatem w 
dynamicznym dylemacie więźnia bez korelacji zdrada jest strategią ewolucyjnie stabilną. 


Jednak możliwość korelacji istotnie zmienia tę sytuację. Wówczas musimy liczyć średnie dostosowanie danej strategii 
przy danym prawdopodobieństwie spotkania przez nią każdej możliwej strategii. W dynamicznym dylemacie więźnia 
altruiści, którzy mają duże prawdopodobieństwo spotkania się nawzajem, radzą sobie lepiej niż agresorzy mający takie 
samo prawdopodobieństwo spotkania się. Wynika z tego, że korelacja faworyzuje kooperację :) 


Wyobraźmy sobie teraz sytuację, w której gracze muszą grać z graczami dowolnie (przypadkowo) wybranymi spośród 
najbliższych graczy (jest to dość realistyczne założenie ze względu na genetyczną lub kulturową bliskość). Jeśli mamy 
do czynienia z populację o skończonych rozmiarach, którą możemy schematycznie przedstawić na jednej linii, to 
otrzymamy następującą dynamikę: 


e pojedynczy współpracujący gracze (altruiści), którzy są otoczeni przez zdrajców (agresorów), wyginą; 


e członkowie grup złożonych z dwóch współpracujących ze sobą graczy mają 50% szans na oddziaływanie 
pomiędzy sobą i 50% szans na oddziaływanie ze zdrajcami. W rezultacie ich oczekiwane dopasowanie okazuje 
się mniejsze niż dopasowanie otaczających ich zdrajców, więc też prawdopodobnie wyginą; 

e członkowie grup złożonych z trzech współpracujących ze sobą graczy, mają takie same dopasowanie jak 
otaczający ich zdrajcy, lecz jest to sytuacja niestabilna, która może obrócić się zarówno w kierunku rozwoju 
tej grupy, jak i jej wyginięcia; 

e grupy złożone z czterech lub więcej współpracujących ze sobą graczy radzą sobie lepiej niż otaczający ich 
zdrajcy, wskutek czego zwiększają oni swoje dostosowanie (liczebność w ramach populacji). W rezultacie 
altruiści mogą prawie całkowicie wyprzeć agresorów (zdrajców). Przy życiu mogą utrzymać się tylko 
pojedynczy zdrajcy lub ich grupy istniejące na peryferiach populacji. 


Widać więc, że istnienie altruizmu może być uzasadnione przez dynamikę gier ewolucyjnych, zaś w sytuacji korelacji 
altruizm może stać się nawet główną strategią w populacji. Warto jednak zauważyć, że tego rodzaju wniosku są 
uzasadnione tylko w sytuacji, w której poszczególne osobniki trzymają się swoich naturalnych lub kulturowych 
uwarunkowań i nie mogą zmieniać same swoich funkcji wypłat. Jeśli gracze będą zbyt sprytni i zbyt skorzy do zmiany 
własnej strategii zgodnie z własnym indywidualnym interesem, to na skutek obserwacji, że znajdują się w dylemacie 
więźnia, wybiorą zdradę jako najkorzystniejszą dla nich osobiście strategię. Wskutek tego szybko doprowadzą się do 
zagłady — chyba że wytworzą stabilne i efektywne normy, które ponownie odtworzą współpracę. 


Na zakończenie opiszmy zagadnienie strategii ewolucyjnie stabilnych od strony matematycznej. Przypomnijmy jeszcze 
raz, że równowaga Nasha jest takim profilem strategii w grze, że, przy ustalonych strategiach wszystkich pozostałych 
graczy, żaden gracz nie może polepszyć swojej wypłaty przez zmianę swojej strategii. Jeśli gracz wybierze strategię x 
w populacji, gdzie wszyscy inni gracze korzystają ze strategii y, to otrzyma on wypłatę u(x,y). W takiej sytuacji jeśli x 
jest strategią równowagi Nasha, to można to zapisać pod postacią warunku: 


u(x,x) > u(y,x) dla każdego y. 
Natomiast jeśli x jest strategią ewolucyjnie stabilną, to spełniony jest następujący warunek: 
{ u(x,x) > u(y,x) } lub { [ u(x,x) = u(y,x) oraz u(x,y) > u(y.y) ] dla każdego x £y }. 


Oznacza to, że wypłata każdego gracza grającego strategią x w sytuacji, kiedy inni grają tą samą strategią, musi być 
większa od wypłaty, którą otrzymuje on grając jakąkolwiek inną strategią, lub wypłaty te mogą być takie same, ale 
wtedy wypłata w sytuacji, kiedy jego strategia jest grana przeciw innym strategiom, musi być większa od wypłaty, którą 
by uzyskał grając tą samą strategią co przeciwnik. Drugi z tych warunków wyklucza możliwość dokonania „inwazji” 
przez mutanta, dlatego, że mówi on, iż żadnemu graczowi nie opłaca się zmienić jego dotychczasowej strategii na inną. 
Dzięki takiemu matematycznemu sformułowaniu mamy proste kryterium określające, który profil strategii w danej grze 
jest strategią ewolucyjnie stabilną. Warto zauważyć, że pierwszy z dwóch członów powyższej alternatywy jest bardzo 
podobny do warunku równowagi Nasha, lecz jest od niego mocniejszy. Czasem nazywa się go ścisłą równowagą 
Nasha. 


10. Mały słowniczek pojęć teorii gier 


gra — coś, co składa się ze zbioru reguł, zbioru co najmniej dwóch graczy, z których każdy dysponuje pewnym zbiorem 
strategii, oraz możliwymi wynikami na skutek postępowania. Wynikom tym przypisujemy określone wypłaty, czyli 
liczbowe wartości określające zyski, jakie każdy gracz otrzyma dla danego wyniku gry. 


strategia — określone działanie/decyzja, które podejmuje gracz w ramach gry, zgodnie z jej regułami. Dokonanie 
nieodwołalnego wyboru strategii przez wszystkich graczy określa wynik gry. Taki wybór jest wyborem określonego 
profilu strategii i prowadzi do określonego zbioru wypłat dla poszczególnych graczy. W postaci macierzowej oznacza 
to wybór określonej komórki, w której zapisane są wypłaty otrzymywane przez poszczególnych graczy. 


wypłata — (także: funkcja wypłaty, wygrana, względnie kara) przypisanie wartości liczbowej określonemu wynikowi w 
grze, jaki może otrzymać gracz na skutek użycia, przez wszystkich uczestników gry, określonych strategii. W 
przypadku gry dwóch graczy, reprezentowanej w postaci macierzowej, wypłaty obydwu graczy reprezentowane są 
przez parę liczb w komórce znajdującej się na przecięciu kolumny i wiersza określających strategię obydwu graczy. 


reprezentacja (postać) gry — wizualny, matematyczny sposób zapisu gry, a mówiąc dokładniej: strategii, którymi 
dysponują gracze, oraz wypłat otrzymywanych przez nich w wyniku grania określonymi strategiami. Najczęściej 
spotyka się dwa sposoby reprezentowania gry: przy pomocy drzewa lub macierzy. W przypadku reprezentacji (postaci) 
macierzowej, strategie jednego z graczy są wyrażone przez poszczególne kolumny, natomiast strategie drugiego gracza 


są wyrażone przez poszczególne wiersze. Para liczb w określonej komórce określa wypłaty jakie otrzymają ci gracze 
grając strategiami, na których przecięciu jest ta komórka. Pierwsza liczba określa wypłatę, którą otrzyma gracz grający 
strategiami wyrażonymi przez wiersze, zaś druga liczba określa wypłatę, którą otrzyma gracz grający strategiami 
wyrażonymi przez kolumny. 


strategia Ściśle dominująca — W sytuacji gier, w których jedna strategia określonego gracza jest zdecydowanie lepsza 
od wszystkich innych możliwych jego strategii niezależnie od tego jakie działania (decyzje, strategie) wybiorą inni 
gracze, mówimy, że strategia ta ściśle dominuje nad pozostałymi możliwymi strategiami tego gracza. Określona 
strategia jest „zdecydowanie lepsza”, jeśli wypłata dla tej strategii jest większa od wypłat dla wszystkich innych 
możliwych strategii. W praktyce oznacza to, że szukamy u danego gracza takiej strategii (wiersza lub kolumny 
macierzy), która niezależnie od strategii przeciwnika zawsze daje największą możliwą wypłatę. 


profil strategii — zbiór strategii, będący rezultatem wyboru przez każdego gracza jednej strategii. Poszczególne profile 
strategii są w reprezentacji macierzowej gry wyrażane przez komórki macierzy (tabeli). 


gry ze współpracą — gry, w których wypłaty obydwu graczy są określone tak, że obydwu graczom opłaca się wybierać 
strategie zgodne ze sobą. Są to gry, w których wszystkie równowagowe czyste strategie Nasha są sytuacjami, w których 
gracze wybierają te same, lub odpowiadające sobie strategie. 


równowaga Nasha — Równowaga Nasha jest takim profilem strategii w grze, że, przy ustalonych strategiach 
wszystkich pozostałych graczy, żaden gracz nie może polepszyć swojej wypłaty przez zmianę swojej strategii. Oznacza 
to, że w praktyce szukamy takiej pary strategii dwóch graczy (komórki macierzy), że, będąc w danym wierszu (= 
ustalona strategia drugiego gracza) gracz grający kolumnami nie może polepszyć wypłaty zmieniając swojej strategii 
(kolumny), a gracz grający wierszami przy ustalonej kolumnie nie może poprawić swojej wypłaty przez zmianę 
wierszy. Matematycznie biorąc, wyraża się to wzorem 


u(x,x) > u(y,x) dla każdego y, 


gdzie u(A,B) oznacza wypłatę gracza grającego strategią A dla profilu strategii (A,B). Jest to tak zwana równowaga 
Nasha w strategiach czystych. Równowaga Nasha dla gier mieszanych oblicza się poprzez poszukiwanie takich 
prawdopodobieństw wyboru strategii przez każdego gracza, że każdy z graczy osiąga równowagę, polegającą na tym, 
że (dla ustalonego gracza oraz ustalonych strategii pozostałych graczy) prawdopodobieństwo wyboru dowolnej strategii 
pomnożone przez wypłatę z nią związaną daje tę samą wartość, niezależnie od wyboru strategii. Przykładowo, jeśli 
mamy dwuosobową grę, w której każdy z graczy (I, II) ma dwie możliwe strategie (odpowiednio: A,B oraz X,Y) które 
może wybierać z pewnym prawdopodobieństwem (odpowiednio: p, (1-p), q, (1-q)), to warunek równowagi Nasha w 
strategiach mieszanych dla gracza I wynosi 


q*u(A,X)+(1-q)*u(A,Y) = q*u(B,X)+(1-q)*u(B,X), 
gdzie u(A,X) jest wypłatą gracza I dla profilu strategii (A,X). 


strategie mieszane — strategiami czystymi nazywa się strategie występujące w definicji pojęcia gry, oraz w definicji 
innych pojęć tej teorii. Strategie mieszane, są to strategie czyste wymnożone przez prawdopodobieństwa wyboru danej 
strategii przez gracza. Każda gra może (lecz nie musi) mieć dodatkowe równowagi Nasha w strategiach czystych. 


strategia ewolucyjnie stabilna — Jest to taki profil strategii w grze, że wypłata każdego gracza grającego strategią x w 
sytuacji, kiedy inni grają tą samą strategią, musi być większa od wypłaty, którą otrzymuje on grając jakąkolwiek inną 
strategią, lub wypłaty te mogą być takie same, ale wtedy wypłata w sytuacji, kiedy jego strategia jest grana przeciw 
innym strategiom, musi być większa od wypłaty, którą by uzyskał grając tą samą strategią co przeciwnik. Aby znaleźć 
strategię ewolucyjnie stabilną, musimy dla każdego możliwego profilu strategii (komórek macierzy) przeprowadzić 
następującą procedurę: Dla każdego gracza porównujemy jego wypłatę przy danej strategii z wypłatami, które może 
otrzymać przy zmianie strategii na inną. Musi ona być większa od wszystkich innych możliwych lub, jeśli jest równa, 
zmiana strategii musi dawać wypłatę większą od wypłat wszystkich innych gracz. Wyraża się to wzorem 


{ u(x,x) > u(y,x) ) lub £ [ u(x,x) = u(y,x) oraz u(x,y) > u(y,y) ] dla każdego x £ y |. 


Ten wzór jest bardzo podobny do wzoru definiującego równowagę Nasha. Różnica polega na tym, że dla strategii 
ewolucyjnie stabilnej mamy ostrą nierówność >, a w przypadku równowagi Nasha mamy >. Oznacza to, że aby znaleźć 
strategie ewolucyjnie stabilne, postępujemy ogólnie tak samo jak w przypadku poszukiwania równowagi Nasha, z tym 
że jeśli wypłaty są równe, to musimy sprawdzić jeszcze dodatkowy warunek: mianowicie u(x,y) > u(y.y), czyli czy 
zmiana strategii na inną da większą wypłatę. 
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